THE 11TH ICAME CONFERENCE

Knut Hofland

Den 11. ICAME konferansen ble arrangert i Berlin fra 10.-13. juni 1990. Det var 65 deltakere fra 14 land og 3 kontinenter, bl.a. 5 fra Norge, og som et resultat av tilnærmingen mellom de to tyske stater, var flere av deltakerne fra daværende Øst-Tyskland.
Det ble holdt 35 foredrag og disse var gruppert i 11 sesjoner som dreide seg om historiske studier, forskjellige beskrivelser av engelsk språk, korpusforskning, fremdriftsrapporter om korpusstudier og variasjoner av engelsk språk. I tillegg ble det gitt noen få demonstrasjoner av aktuell programvare.
I det følgende vil noen av foredragene bli omtalt. Det er for øvrig planlagt en bok som skal inneholde en del av foredragene.
Merja Kytö fra universitetet i Helsinki rapporterte om status i korpusarbeidet der. I dialektkorpuset er siste dialekt til behandling og når denne er ferdig, vil alle de viktigste dialektene være dekket og korpuset kommet opp i 500.000 løpende ord. Tekstene blir tagget med programmet CLAWS fra Lancaster, og det er også gjort forsøk med bruk av MacRecorder og HyperCard på Macintosh for samtidig tilgang til lyd og transkribert tekst. Et problem er lagerplassen som digitalisert lyd krever. Det diakroniske korpuset er klar til distribusjon i løpet av 1990. Matti Rissanen viste eksempler på noen analyser som kan gjøres med utgangspunkt i korpuset, som i dag finnes i utagget utgave.
Ian Lancashire fra University of Toronto gav en oversikt over hvorledes tekstsøkeprogrammet TACT blir brukt i litterære studier av Chaucer, Shakespeare og Milton. Ved hjelp av skriptmuligheter i denne pakken kan læreren lage en styrt gjennomgang av teksten basert på bruk av ordliste, konkordans, fordeling av tekst/ord, kollokasjoner, søkemønstre og ordkombinasjoner. Etter en første presentasjon kan studentene selv utforske tekstene. Utviklingsgruppen i Toronto vil i løpet av de nærmeste årene viderutvikle TACT bl.a. med hensyn til tekststatistikk. TACT blir distribuert av NAVFs edb-senter for humanistisk forskning til selvkost.
Geoffrey Barnbrook fra University of Birmingham presenterte et arbeid med analyse av rettskrivingsvarianter i en middelengelsk tekst. Han hadde skrevet egne programmer i Turbo Pascal og tok utgangspunkt i ca. 18.000 ordpar der det kun var én bokstavs forskjell og der disse ordene kunne være mulige varianter av samme ord. Han klassifiserte forskjellene i 7 hovedkategorier og studerte videre de 10 mest frekvente bokstavparene innen disse hovedkategoriene. Et program som skulle generere alle rettskrivingsvarianter av et ord ble testet på 300 tilfeldige ord fra teksten. 98 forslag ble funnet i teksten og av disse var 78 korrekt. Programmene kan tenkes brukt til reorganisering av ordlister, konkordans til et ord der alle varianter blir generert automatisk, og i forbindelse med lemmatisering av middelengelske tekster der en vil måtte normalisere teksten før en kan foreta en lemmatisering.
Pieter de Haan fra universitetet i Nijmegen har gjort undersøkelser av hvorledes størrelsen på deltekstene i et korpus påvirker resultatene. I Brown- og LOB-korpusene er hver deltekst på 2000 ord, og dette synes tilstrekkelig for analyse av leksikalske former. Dersom en studerer fraser eller setninger, synes det som om en må opp i deltekster på 20.000 ord for å få tilstrekkelig med eksempler.
Lou Burnard fra University of Oxford orienterte om arbeidet innen komitéene som kalles Text Encoding Initiative (TEI). Dette arbeidet ble startet i 1987 og det har vært komitéer for tekstdokumentasjon, metaspråk, tekstrepresentasjon og teksttolking. I juni 1990 kom de første anbefalinger ut fra komitéene, en 350 siders bok, TEI Guidelines. Høsten 1990 blir det arrangert seminar i Europa og Nord-Amerika som presenterer disse anbefalingene. I løpet av de neste to år vil disse forslagene bli diskutert og forskere og andre er oppfordret til å komme med kommentarer før den endelige publisering i 1992 under ALLC konferansen i Oxford. Lou Burnard ga også en oversikt over Standard Generalized Markup Language (SGML), som er en ISO standard og som er metaspråket som er brukt i TEI. Til slutt viste han et eksempel på hvordan TEI Guidelines kan brukes på en autentisk tekst. (Se også Burnards artikkel i dette nr. av HD).
Jeremy Clear fra Oxford University Press (OUP) gav noen opplysninger om det planlagte Oxford korpus eller British National Corpus som det offisielle navnet trolig blir. OUP har satt sammen et konsortium der bl.a. forlaget Longman, universitetet i Lancaster, Oxford University Computing Service og British Library er med. Målet er å lage et korpus på 100 millioner ord i løpet av 3 år og gjøre dette tilgjengelig med et minimum av restriksjoner. Finansieringen er i løpet av høsten blitt ordnet og prosjektet starter 1.1.1991. I siste del av foredraget tok Clear opp noen generelle problemstillinger i forbindelse med tilrettelegging av et korpus, spesielt problemer med utvalg.
Charles Bush fra Brigham Young University presenterte en forsmak på versjon 5 av WordCruncher. Denne utgaven er helt nyskrevet og kjører under Windows 3.0. Det er mulig å arbeide med flere tekster samtidig. Gamle tekster må reindekseres, men indekseringen går hurtigere enn i versjon 4.3. En tekst kan nå ha 10 uavhengige referansenivåer. Versjon 5 har innebyggete muligheter for å representere hypertekstlige forhold ved hjelp av forskjellige typer lenker, både statiske og dynamiske, også til grafikk. Det er mulig å kalle opp andre program, som f.eks. drivere for videospiller. Programmet gir støtte for SGML. Programmet vil være tilgjengelig i juni 1991 og det vil da også komme en utgave for Macintosh. Senere vil det komme en versjon for OS/2.
Den uformelle faglige kontakten var som ved andre ICAME konferanser et viktig element. De fleste av deltakerne har deltatt i flere av de tidligere konferansene og har på denne måten blitt godt kjent. Arrangementer som rundtur i Berlin og båttur til Potzdam gjorde det mulig å videreutvikle disse kontaktene. Arrangør var Gerhard Leitner ved Freie Universität Berlin. Bortsett fra noen praktiske problemer, ble konferansen avviklet på en tilfredsstillende måte. Neste konferanse blir arrangert i Leeds 8.-11. mai 1991.